智能论文笔记

Fighting COVID-19 in the Dark: Methodology for Improved Inference Using Homomorphically Encrypted DNN

Moran Baruch , Lev Greenberg , Guy Moshkowich

分类：机器学习

2021-11-05

保留隐私深度神经网络（DNN）推理是不同受监管行业的必要条件，如医疗保健，金融和零售。最近，同性恋加密（HE）已被用作在解决隐私问题的同时启用分析的方法。他能够通过加密数据安全预测。然而，与使用他的使用有几个挑战，包括DNN尺寸限制以及对某些操作类型的支持缺乏支持。最值得注意的是，在某些HE方案下不支持常用的Relu激活。我们提出了一种结构化方法来用二次多项式激活替换Relu。为了解决准确性的降级问题，我们使用预先训练的模型，该模型列举了另一个他友好的模型，使用诸如“可训练激活”功能和知识蒸馏等技术。我们使用用于Covid-19检测的胸部X射线和CT数据集，在AlexNet架构上展示了我们的方法。我们的实验表明，通过使用我们的方法，F1分数和用Relu培训的模型的准确性与He-insive模型之间的差距缩小到仅为1.1-5.3％的劣化。

translated by 谷歌翻译

HeLayers: A Tile Tensors Framework for Large Neural Networks on Encrypted Data

Ehud Aharoni , Allon Adir , Moran Baruch , Nir Drucker , Gilad Ezov , Ariel Farkash , Lev Greenberg , Ramy Masalha , Guy Moshkowich , Dov Murik

分类：机器学习

2020-11-03

保留保护解决方案使公司能够在履行政府法规的同时将机密数据卸载到第三方服务。为了实现这一点，它们利用了各种密码技术，例如同性恋加密（HE），其允许对加密数据执行计算。大多数他计划以SIMD方式工作，数据包装方法可以显着影响运行时间和内存成本。找到导致最佳性能实现的包装方法是一个艰难的任务。我们提出了一种简单而直观的框架，摘要为用户提供包装决定。我们解释其底层数据结构和优化器，并提出了一种用于执行2D卷积操作的新算法。我们使用此框架来实现他友好的AlexNet版本，在三分钟内运行，比其他最先进的解决方案更快的数量级，只能使用他。

translated by 谷歌翻译

LSDNet: Trainable Modification of LSD Algorithm for Real-Time Line Segment Detection

Lev Teplyakov , Leonid Erlygin , Evgeny Shvets

分类：计算机视觉

2022-09-10

截至今天，基于卷积神经网络-CNN的算法实现了线段检测（LSD）的最佳准确性（LSD）。不幸的是，这些方法利用了深度，重型网络，并且比传统的基于模型的检测器慢。在本文中，我们通过将轻量级CNN纳入经典的LSD检测器中，建立了准确但快速的基于CNN的检测器LSDNET。具体而言，我们用轻量级的CNN替换了原始LSD算法的第一步 - 线段段热图和切线场的构造 - 能够计算出更复杂和丰富的特征。 LSD算法的第二部分仅用于次要修改。与标准线框数据集上的几个现代线段探测器相比，所提出的LSDNET可提供214 fps的最高速度（在基于CNN的探测器中），竞争精度为78 FH。尽管最佳报告的精度为33 fps的83 fh，但我们推测观察到的精度差距是由注释错误引起的，实际差距明显较低。我们指出了流行线检测基准的注释中的系统不一致 - 线框和约克城市，仔细地重新注册了一部分图像，并表明（i）现有检测器在不进行重新训练的情况下改善了质量，而无需重新培训，表明新的注释与新的注释相关，使得新的注释更好地与之相关。正确的线段检测概念；（ii）我们检测器的精度与其他人之间的差距减少到可忽略的0.2 FH，而我们的方法最快。

translated by 谷歌翻译

A Scalable and Extensible Approach to Benchmarking NL2Code for 18 Programming Languages

Federico Cassano , John Gouwar , Daniel Nguyen , Sydney Nguyen , Luna Phipps-Costin , Donald Pinckney , Ming Ho Yee , Yangtian Zi , Carolyn Jane Anderson , Molly Q Feldman

分类：机器学习

2022-08-17

大型语言模型已经证明了能够在自然语言和编程语言文本上进行条件和生成的能力。这样的模型打开了多语言代码生成的可能性：代码生成模型是否可以将知识从一种语言推广到另一种语言？尽管当代代码生成模型可以生成语义上正确的Python代码，但对它们使用其他语言的能力知之甚少。我们通过提出Multipl-E来促进该主题的探索，这是自然语言到代码生成的第一个多语言平行基准。 Multipl-E扩展了HumaneVal基准（Chen等，2021），以支持另外18种编程语言，涵盖了一系列编程范式和受欢迎程度。我们在Multipl-E：Codex和Incoder上评估了两个最先进的代码生成模型。我们发现，在几种语言上，法典匹配，甚至超过了其在Python上的性能。在多型E中表示的编程语言范围使我们能够探索语言频率和语言功能对模型性能的影响。最后，将代码生成基准分配给新编程语言的多重方法既可扩展又可扩展。我们描述了一种通用方法，可以轻松地增加对新基准和语言的支持。

translated by 谷歌翻译

Temporal Concept Drift and Alignment: An empirical approach to comparing Knowledge Organization Systems over time

Sam Grabus , Peter Melville Logan , Jane Greenberg

分类：自然语言处理

2022-08-16

这项研究探讨了知识组织系统（KOS）中的时间概念漂移和时间对齐。使用1910年国会主题标题，2020快速主题和自动索引进行比较分析。用例涉及90个19世纪的大不列颠百科全书。条目使用两种方法进行索引：1）全文索引； 2）使用1910 LCSH和快速主题的辅助跨学科词汇应用程序（HIVE），使用STANZA，Stanford的NLP工具包上的条件进行了命名实体识别。分析的重点是三个目标：1）确定1910年LCSH输出独有的结果； 2）在当代LCSH中删除的独家集合中的术语，证明了时间概念漂移； 3）探索这些弃用条款的历史意义。结果证实，历史词汇可用于生成过时的主题标题，代表了KOS和历史资源的概念漂移。做出了一种方法上的贡献，证明了如何随着时间的推移研究KOS的变化并改善历史人文资源的情境化。

translated by 谷歌翻译

Exploring Wasserstein Distance across Concept Embeddings for Ontology Matching

Yuan An , Alex Kalinowski , Jane Greenberg

分类：人工智能

2022-07-22

测量本体论元素之间的距离是任何匹配解决方案的基本组成部分。依靠离散符号操作的基于字符串的距离指标对于浅层句法匹配是臭名昭著的。在这项研究中，我们探索了跨本体概念嵌入的Wasserstein距离度量。 Wasserstein距离度量目标连续空间可以包含语言，结构和逻辑信息。在我们的探索性研究中，我们使用预先训练的单词嵌入式系统FastText来嵌入本体元素标签。我们研究了Wasserstein距离在测量安大略省（块）之间相似性，发现各个元素之间的匹配以及完善上下文信息的匹配项之间的有效性。与AML和Logmap等领先的系统相比，我们对OAEI会议轨道和MSE基准测试的实验实现了竞争成果。结果表明，适用于最佳运输的有希望的轨迹和Wasserstein距离，以改善基于嵌入的无监督本体匹配。

translated by 谷歌翻译

Heterogeneous Treatment Effect with Trained Kernels of the Nadaraya-Watson Regression

Andrei V. Konstantinov , Stanislav R. Kirpichenko , Lev V. Utkin

分类：机器学习 | (统计)机器学习

2022-07-19

本文提出了一种估计条件平均治疗效果的新方法。它称为TNW-CATE（可训练的Nadaraya-Watson回归CATE），并且基于以下假设：控制数量相当大，而处理的数量很少。 TNW-CATE使用Nadaraya-Watson回归来预测对照组和治疗组的患者的结果。 TNW-CATE背后的主要思想是通过使用特定形式的重量分享神经网络来训练Nadaraya-Watson回归的内核。该网络在控件上进行了训练，并用一组具有共享参数的神经子网代替标准内核，使每个子网都实现了可训练的内核，但是整个网络都实现了Nadaraya-Watson估计器。网络记住特征向量如何位于特征空间中。当源和目标数据的域相似时，所提出的方法类似于传输学习，但任务不同。各种数值仿真实验说明了TNW-CATE，并将其与众所周知的T-Learner，S-Learner和X-Learner进行比较，以进行几种类型的对照和治疗结果函数。 https://github.com/stasychbr/tnw-cate提供了实施TNW-CATE的算法的代码。

translated by 谷歌翻译

AGBoost: Attention-based Modification of Gradient Boosting Machine

Andrei Konstantinov , Lev Utkin , Stanislav Kirpichenko

分类：机器学习 | (统计)机器学习

2022-07-12

提出了一个新的基于注意力的升压机（GBM）的模型，称为AgBoost（基于注意力的梯度提升），以解决回归问题。拟议的AGBOOST模型背后的主要思想是将带有可训练参数的注意力分配给GBM的迭代，条件是决策树是GBM中的基础学习者。注意力的重量是通过应用决策树的特性和使用Huber的污染模型来确定的，该模型在注意力的参数和注意力重量之间提供了有趣的线性依赖性。这种特殊性使我们能够通过线性约束解决标准二次优化问题来训练注意力权重。注意力重量还取决于折现因子作为调整参数，这决定了重量的影响随迭代次数减少的程度。对两种类型的基础学习者，原始决策树和具有各种回归数据集的极为随机树进行的数值实验说明了所提出的模型。

translated by 谷歌翻译

Building Open Knowledge Graph for Metal-Organic Frameworks (MOF-KG): Challenges and Case Studies

Yuan An , Jane Greenberg , Xintong Zhao , Xiaohua Hu , Scott McCLellan , Alex Kalinowski , Fernando J. Uribe-Romo , Kyle Langlois , Jacob Furst , Diego A. Gómez-Gualdrón

分类：人工智能

2022-07-10

金属有机框架（MOF）是一类模块化的多孔晶体材料，具有巨大的革命性应用，例如储气，分子分离，化学感应，催化和药物输送。剑桥结构数据库（CSD）报告了10,636个合成的MOF晶体，此外还包含CA。114,373个类似MOF的结构。综合数量（加上可能合成的）MOF结构数量庞大，需要研究人员追求计算技术来筛选和分离MOF候选物。在此演示论文中，我们描述了我们在利用知识图方法方面促进MOF预测，发现和综合方面的努力。我们提出了有关（1）从结构化和非结构化来源构建MOF知识图（MOF-KG）的挑战和案例研究，以及（2）利用MOF-KG来发现新知识或缺失知识。

translated by 谷歌翻译

Attention and Self-Attention in Random Forests

Lev V. Utkin , Andrei V. Konstantinov

分类：机器学习 | (统计)机器学习

2022-07-09

提出了使用注意力和自我发项机制共同解决回归问题的新模型。这些模型可以被视为基于注意力的随机森林的扩展，其思想源于将Nadaraya-Watson内核回归和Huber污染模型的组合应用于随机森林。自我发作旨在捕获树木预测的依赖性，并消除随机森林中的噪声或异常预测。自我发场模块与注意力重量的注意模块共同训练。结果表明，注意力重量的训练过程减少到解决单个二次或线性优化问题。提出并比较了一般方法的三个修改。还考虑了对随机森林的特定多头自我注意。自我注意事项的头部是通过更改其调谐参数（包括内核参数和模型的污染参数）来获得的。使用各种数据集的数值实验说明了所提出的模型，并表明自我发挥的补充可改善许多数据集的模型性能。

translated by 谷歌翻译